Từ hóa là gì? Các bài báo nghiên cứu khoa học liên quan

Đoạn hóa là quá trình hình thành và biến đổi từ ngữ qua các phép như thêm tiền tố, hậu tố, ghép từ, mượn từ và rút gọn nhằm mở rộng vốn từ vựng. Từ hóa giúp ngôn ngữ linh hoạt thích ứng với sự phát triển của xã hội, khoa học và văn hóa, đồng thời tạo điều kiện cho xử lý ngôn ngữ tự nhiên chính xác.

Định nghĩa và khái quát Từ hóa (Word Formation)

Từ hóa là quá trình ngôn ngữ học hình thành từ mới hoặc biến đổi từ gốc để mở rộng vốn từ vựng và diễn đạt khái niệm mới. Các hình thức từ hóa cho phép ngôn ngữ thích ứng với sự phát triển của xã hội, khoa học, kỹ thuật và văn hóa. Từ hóa điều chỉnh cả hình thái (morpheme) và ngữ nghĩa (semantics), giúp tạo ra từ mang nghĩa cụ thể hơn hoặc chuyển đổi lớp từ (word class) nhằm phù hợp ngữ cảnh sử dụng.

Các quá trình từ hóa chính bao gồm thêm tiền tố, hậu tố, ghép từ, mượn từ nước ngoài, rút gọn (clipping), hòa trộn (blending), viết tắt (acronym) và biến đổi nội tại (internal modification). Mỗi phép biến đổi có quy luật âm vị học, hình thái học và ngữ nghĩa riêng biệt. Sự đa dạng của các phép tạo từ phản ánh đặc điểm linh hoạt của ngôn ngữ trong việc đáp ứng nhu cầu giao tiếp, tư duy và sáng tạo.

Khung lý thuyết về hình thái học

Lý thuyết hình thái cấu trúc (Morpheme-Based Morphology) xem morpheme (tổ tố) là đơn vị tối thiểu mang nghĩa, phân thành morpheme độc lập (free) và morpheme phụ trợ (bound). Trong khung này, phép từ hóa được phân tích dưới dạng sự kết hợp hoặc biến đổi của các morpheme, qua đó xác định bản chất hình thái của từ mới. Việc xác định ranh giới morpheme và loại morpheme ảnh hưởng trực tiếp đến cách giải thích và phân loại từ hóa.

Lexical–Functional Grammar (LFG) mở rộng lý thuyết bằng cách tích hợp hình thái vào cấu trúc ngữ pháp, phân biệt giữa cấu trúc ngữ nghĩa (f-structure) và cấu trúc hình thức (c-structure). Distributed Morphology kết hợp yếu tố hình thái và ngữ nghĩa trong một khung chung, cho phép mô hình hóa cả quá trình từ vựng hóa (vocabulary insertion) và các quy tắc nội sinh (morphological operations) để tạo từ.

Các phép tạo từ chính

Đảo từ (Derivation) là quá trình thêm tiền tố hoặc hậu tố để hình thành từ mới, thường thay đổi lớp từ và ý nghĩa gốc. Ví dụ: “happy” → “unhappy”, “create” → “creation”. Ghép từ (Compounding) kết hợp hai hoặc nhiều từ độc lập, như “blackboard” hay “bookstore”, để biểu thị khái niệm phức hợp. Rút gọn (Clipping) cắt bớt thành phần của từ gốc, ví dụ “laboratory” → “lab”. Mượn từ (Borrowing) tiếp nhận từ ngôn ngữ khác, như “café” từ tiếng Pháp, thường giữ lại sự điều chỉnh âm vị.

Blend (hòa trộn) tạo từ bằng cách kết hợp phần đầu của từ này với phần cuối của từ khác, ví dụ “smoke”+“fog” → “smog”. Acronym (viết tắt chữ cái đầu) và initialism (chữ viết tắt đọc từng chữ) như “NASA” hay “FBI” giúp tạo từ mới gọn và dễ nhớ. Việc lựa chọn phép tạo từ phụ thuộc vào quy mô ngôn ngữ, bối cảnh xã hội và độ sáng tạo của người sử dụng.

Phép tạo từ: Đảo từ (Derivation)

Đảo từ sử dụng tiền tố (prefix) và hậu tố (suffix) để mở rộng hoặc điều chỉnh nghĩa. Tiền tố “un-” phủ định tính chất (“happy” → “unhappy”), tiền tố “re-” biểu thị tái lặp (“build” → “rebuild”). Hậu tố “-ness” chuyển tính từ thành danh từ trừu tượng (“dark” → “darkness”), hậu tố “-er” chỉ người thực hiện (“teach” → “teacher”).

Quá trình thêm tố thường kèm theo biến đổi âm vị như biến đổi phụ âm cuối, tăng giảm nguyên âm. Chẳng hạn “electric” + “-ity” → “electricity” có sự thay đổi về trọng âm và phát âm nguyên âm “i”. Độ “sản xuất” (productivity) của mỗi tố được đo bằng tần suất xuất hiện trong corpus; hậu tố “-ness” và tiền tố “un-” thể hiện năng suất cao trong tiếng Anh hiện đại.

TốLoạiChức năngVí dụ
un-Tiền tốPhủ địnhunpleasant, undo
-nessHậu tốChuyển adj ➔ nhappiness, darkness
re-Tiền tốTái lặpredo, reread
-erHậu tốNgười thực hiệnwriter, runner

Đánh giá mức độ năng suất của tố ảnh hưởng đến khả năng tạo từ mới; các nghiên cứu corpus cho thấy hậu tố “-able” và “-less” cũng rất phổ biến, cho phép sáng tạo từ như “readable”, “hopeless”.

Phép tạo từ: Ghép từ (Compounding)

Ghép từ là quá trình kết hợp hai hoặc nhiều từ độc lập để tạo thành một từ mới có nghĩa tổng hợp. Ví dụ “blackboard” (black + board) biểu thị bảng đen, “bookstore” (book + store) chỉ cửa hàng sách.

Có hai loại ghép chính:

  • Endocentric compounding: phần cuối (head) xác định lớp từ và ý nghĩa tổng quát (ví dụ “toothbrush” – toothbrush là loại brush).
  • Exocentric compounding: ghép không có head rõ ràng, nghĩa không thể suy ra từ thành phần (ví dụ “pickpocket” – không phải pocket).
Loại ghépVí dụHead
Endocentricbookshelfshelf
Exocentricredhead

Ghép từ thường có năng suất cao trong ngôn ngữ Đức và các ngôn ngữ Germanic, trong khi tiếng Anh hiện đại cũng mở rộng nhanh qua compounding để mô tả khái niệm mới (như “smartphone”).

Phép tạo từ khác: Mượn từ và Rút gọn

Mượn từ (borrowing) là việc tiếp nhận từ hoặc cụm từ từ ngôn ngữ khác, điều chỉnh theo quy tắc phát âm và chính tả trong ngôn ngữ đích. Ví dụ tiếng Việt mượn “pizza” từ tiếng Ý, “sofa” từ tiếng Ả Rập qua tiếng Pháp.

Rút gọn (clipping) là cắt bớt thành phần của từ gốc để tạo từ ngắn hơn, như “ad” từ “advertisement”, “flu” từ “influenza”. Các hình thức clipping phổ biến gồm:

  • Back clipping: cắt bỏ phần cuối (“info” từ “information”).
  • Fore clipping: cắt bỏ phần đầu (“phone” từ “telephone”).
  • Middle clipping: giữ phần đầu và cuối (“flu” từ “influenza”).

Mượn từ và clipping đều nhanh chóng lan truyền qua xã hội nhờ truyền thông và internet, tạo ra các từ mới liên tục.

Năng suất và tần suất

Năng suất (productivity) đo mức độ một phép tạo từ được sử dụng để tạo từ mới. Hậu tố “-er” (như “runner”, “painter”) và “-ness” (“happiness”, “darkness”) rất năng suất trong tiếng Anh.

Tần suất xuất hiện trong corpus (frequency) phản ánh mức độ phổ biến và độ ổn định của thành tố. Ví dụ hậu tố “-able” có tần suất cao trong văn bản học thuật (BYU Corpora).

  • Hậu tố -er: >2000 mục từ trong Oxford English Dictionary.
  • Hậu tố -ness: ~1500 mục từ phổ biến.
  • Ghép từ: >5000 từ trong Corpus of Contemporary American English (COCA).

Khía cạnh nhận thức

Trong tâm lý ngôn ngữ học, người nói lưu trữ morpheme và từ mới trong mental lexicon. Thí nghiệm lexical decision cho thấy người đọc nhận diện từ ghép và từ có tiền tố nhanh hơn từ không quen thuộc.

Eye‐tracking trong đọc văn bản chỉ ra rằng khi gặp từ mới tạo bởi derivation hoặc compounding, thời gian nhìn đầu tiên (first‐pass fixation) tăng 20–30 ms so với từ thông dụng, phản ánh độ phức tạp hình thái (JSTOR Study).

Mô hình hóa tính toán

Trong xử lý ngôn ngữ tự nhiên (NLP), mô‐đun phân đoạn hình thái (morphological segmentation) tách từ thành morpheme. Kỹ thuật phổ biến:

  • Conditional Random Fields (CRF): huấn luyện trên dữ liệu gán nhãn để phát hiện ranh giới morpheme.
  • Neural approaches: RNN, Transformer dùng attention để học biểu diễn morpheme‐level (arXiv).

Ứng dụng trong các công cụ như Stanford NLP (Stanford Morphology) cho phép lemmatization, POS tagging và tạo từ tự động.

Biến thể đa ngôn ngữ

Ngôn ngữ dồi dào hình thái (ví dụ tiếng Phần Lan, Thổ Nhĩ Kỳ) sử dụng agglutination để gắn chuỗi hậu tố dài, như “taloss” trong tiếng Phần Lan. Trong khi đó ngôn ngữ phân tích (tiếng Anh, tiếng Trung) phụ thuộc nhiều vào word formation dựa trên word order.

So sánh giữa ngôn ngữ tổng hợp (Synthetic) và phân tích (Analytic) cho thấy phương pháp tạo từ và độ năng suất rất khác nhau, phụ thuộc cấu trúc ngữ pháp và lịch sử tiếp xúc ngôn ngữ.

Tài liệu tham khảo

  • Plag, Ingo. “Morphology and Language.” 2nd ed., De Gruyter, 2003.
  • Aronoff, Mark, & Fudeman, Karen. “What is Morphology?” 2nd ed., Wiley‐Blackwell, 2011.
  • Katamba, Francis. “English Words.” Routledge, 1993.
  • Cambridge Borrowed Words. “Borrowed Words: A History of Loanwords in English.” Cambridge Univ. Press, 2019. Link.
  • Stanford NLP Morphology. “Stanford NLP Group – Morphological Analysis.” 2025. Link.

Các bài báo, nghiên cứu, công bố khoa học về chủ đề từ hóa:

Nhiệt hoá học hàm mật độ. III. Vai trò của trao đổi chính xác Dịch bởi AI
Journal of Chemical Physics - Tập 98 Số 7 - Trang 5648-5652 - 1993
Mặc dù lý thuyết hàm mật độ Kohn–Sham với các hiệu chỉnh gradient cho trao đổi-tương quan có độ chính xác nhiệt hoá học đáng kể [xem ví dụ, A. D. Becke, J. Chem. Phys. 96, 2155 (1992)], chúng tôi cho rằng việc cải thiện thêm nữa là khó có thể xảy ra trừ khi thông tin trao đổi chính xác được xem xét. Các lý lẽ hỗ trợ quan điểm này được trình bày và một hàm trọng số trao đổi-tương quan bán t...... hiện toàn bộ
#Kohn-Sham #hàm mật độ #trao đổi-tương quan #mật độ quay-lực địa phương #gradient #trao đổi chính xác #năng lượng phân ly #thế ion hóa #ái lực proton #năng lượng nguyên tử
Một sự tham số hóa nhất quán và chính xác từ \\textit{ab initio} của việc điều chỉnh độ phân tán trong lý thuyết phiếm hàm mật độ (DFT-D) cho 94 nguyên tố H-Pu Dịch bởi AI
Journal of Chemical Physics - Tập 132 Số 15 - 2010
\u003cp\u003ePhương pháp điều chỉnh độ phân tán như là một bổ sung cho lý thuyết phiếm hàm mật độ Kohn–Sham tiêu chuẩn (DFT-D) đã được tinh chỉnh nhằm đạt độ chính xác cao hơn, phạm vi áp dụng rộng hơn và ít tính kinh nghiệm hơn. Các thành phần mới chủ yếu là các hệ số phân tán cụ thể theo từng cặp nguyên tử và bán kính cắt đều được tính toán từ các nguyên lý đầu tiên. Các hệ số cho các bản số phâ...... hiện toàn bộ
#DFT-D #độ phân tán #tiêu chuẩn Kohn-Sham #số phối hợp phân số #phiếm hàm mật độ #lực nguyên tử #ba thân không cộng tính #hệ thống nguyên tố nhẹ và nặng #tấm graphene #hấp thụ benzene #bề mặt Ag(111)
Ba Cách Tiếp Cận Đối Với Phân Tích Nội Dung Định Tính Dịch bởi AI
Qualitative Health Research - Tập 15 Số 9 - Trang 1277-1288 - 2005
Phân tích nội dung là một kỹ thuật nghiên cứu định tính được sử dụng rộng rãi. Thay vì là một phương pháp duy nhất, các ứng dụng hiện nay của phân tích nội dung cho thấy ba cách tiếp cận khác biệt: thông thường, có định hướng hoặc tổng hợp. Cả ba cách tiếp cận này đều được dùng để diễn giải ý nghĩa từ nội dung của dữ liệu văn bản và do đó, tuân theo hệ hình tự nhiên. Các khác biệt chính g...... hiện toàn bộ
#phân tích nội dung #nghiên cứu định tính #hệ hình tự nhiên #mã hóa #độ tin cậy #chăm sóc cuối đời.
AutoDock Vina: Nâng cao tốc độ và độ chính xác của quá trình docking với hàm chấm điểm mới, tối ưu hóa hiệu quả và đa luồng Dịch bởi AI
Journal of Computational Chemistry - Tập 31 Số 2 - Trang 455-461 - 2010
Tóm tắtAutoDock Vina, một chương trình mới dành cho việc docking phân tử và sàng lọc ảo, được giới thiệu trong bài viết này. AutoDock Vina có tốc độ xử lý nhanh hơn khoảng hai bậc so với phần mềm docking phân tử phát triển trước đây trong phòng thí nghiệm của chúng tôi (AutoDock 4), đồng thời cải thiện đáng kể độ chính xác trong dự đoán cách thức gắn kết, theo các ...... hiện toàn bộ
#AutoDock Vina #docking phân tử #sàng lọc ảo #tối ưu hóa #đa luồng #song song hóa #dự đoán cách thức gắn kết #bản đồ lưới.
Phương Trình Dạng Khép Kín Dự Báo Độ Dẫn Thủy Lực của Đất Không Bão Hòa Dịch bởi AI
Soil Science Society of America Journal - Tập 44 Số 5 - Trang 892-898 - 1980
Tóm tắtMột phương trình mới và tương đối đơn giản cho đường cong áp suất chứa nước trong đất, θ(h), được giới thiệu trong bài báo này. Dạng cụ thể của phương trình này cho phép đưa ra các biểu thức phân tích dạng khép kín cho độ dẫn thủy lực tương đối, Kr, khi thay thế vào các mô hình độ dẫn...... hiện toàn bộ
#Herardic #độ dẫn thủy lực #đường cong giữ nước đất #lý thuyết Mualem #mô hình dự đoán #độ dẫn thủy lực không bão hòa #dữ liệu thực nghiệm #điều chỉnh mô hình #đặc tính thủy lực giấy phép.
OLEX2: chương trình hoàn chỉnh cho giải pháp cấu trúc, tinh chỉnh và phân tích Dịch bởi AI
Journal of Applied Crystallography - Tập 42 Số 2 - Trang 339-341 - 2009
Phần mềm mới,OLEX2, đã được phát triển để xác định, trực quan hóa và phân tích cấu trúc tinh thể phân tử. Phần mềm này có quy trình làm việc hướng dẫn bằng chuột di động và giao diện người dùng đồ họa hoàn toàn toàn diện cho việc giải quyết cấu trúc, tinh chỉnh và tạo báo cáo, cũng như các công cụ mới cho phân tích cấu trúc.OLEX2liên kế...... hiện toàn bộ
AutoDock4 và AutoDockTools4: Định vị tự động với tính linh hoạt chọn lọc của thụ thể Dịch bởi AI
Journal of Computational Chemistry - Tập 30 Số 16 - Trang 2785-2791 - 2009
Tóm tắtChúng tôi mô tả việc kiểm tra và phát hành AutoDock4 cùng với giao diện đồ họa người dùng đi kèm AutoDockTools. AutoDock4 tích hợp tính linh hoạt có giới hạn ở thụ thể. Nhiều thử nghiệm được báo cáo ở đây, bao gồm một thí nghiệm tái định vị với 188 phức hợp ligand-protein đa dạng và một thí nghiệm trao đổi định vị sử dụng chuỗi bên linh hoạt trong 87 phức hợ...... hiện toàn bộ
Phát triển và kiểm thử một trường lực tổng quát của Amber Dịch bởi AI
Journal of Computational Chemistry - Tập 25 Số 9 - Trang 1157-1174 - 2004
Tóm tắtChúng tôi mô tả ở đây một trường lực Amber tổng quát (GAFF) cho các phân tử hữu cơ. GAFF được thiết kế để tương thích với các trường lực Amber hiện có cho protein và axít nucleic, và có các tham số cho phần lớn các phân tử hữu cơ và dược phẩm được cấu tạo từ H, C, N, O, S, P, và các halogen. Nó sử dụng một dạng hàm đơn giản và một số ít loại nguyên tử, nhưng...... hiện toàn bộ
#GAFF #trường lực Amber #phân tử hữu cơ #protein #axít nucleic #điện tích cục bộ #tối thiểu hóa cấu trúc #thiết kế dược lý.
CHARMM: Một chương trình cho tính toán năng lượng vĩ mô, tối ưu hóa và động lực học Dịch bởi AI
Journal of Computational Chemistry - Tập 4 Số 2 - Trang 187-217 - 1983
Tóm tắtCHARMM (Hóa học tại Harvard Macromolecular Mechanics) là một chương trình máy tính linh hoạt cao sử dụng các hàm năng lượng thực nghiệm để mô phỏng các hệ thống vĩ mô. Chương trình có thể đọc hoặc tạo mô hình cấu trúc, tối ưu hóa năng lượng cho chúng bằng kỹ thuật đạo hàm bậc nhất hoặc bậc hai, thực hiện mô phỏng chế độ bình thường hoặc động lực học phân tử,...... hiện toàn bộ
#CHARMM #hóa học vĩ mô #tối ưu hóa năng lượng #động lực học phân tử #mô phỏng hệ thống vĩ mô
Phân tích phương sai phân tử suy ra từ khoảng cách giữa các haplotype DNA: ứng dụng dữ liệu hạn chế của DNA ty thể người. Dịch bởi AI
Genetics - Tập 131 Số 2 - Trang 479-491 - 1992
Toát yếu Chúng tôi trình bày một khung nghiên cứu về sự biến đổi phân tử trong một loài. Dữ liệu về sự khác biệt giữa các haplotype DNA đã được tích hợp vào một định dạng phân tích phương sai, xuất phát từ ma trận khoảng cách bình phương giữa tất cả các cặp haplotype. Phân tích phương sai phân tử (AMOVA) này cung cấp các ước tính về thành phần phương sai và các đ...... hiện toàn bộ
#phân tích phương sai phân tử #haplotype DNA #phi-statistics #phương pháp hoán vị #dữ liệu ty thể người #chia nhỏ dân số #cấu trúc di truyền #giả định tiến hóa #đa dạng phân tử #mẫu vị trí
Tổng số: 13,758   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 10